Deep Reinforcement Learning has been successfully applied to learn robotic control. However, the corresponding algorithms struggle when applied to problems where the agent is only rewarded after achieving a complex task. In this context, using demonstrations can significantly speed up the learning process, but demonstrations can be costly to acquire. In this paper, we propose to leverage a sequential bias to learn control policies for complex robotic tasks using a single demonstration. To do so, our method learns a goal-conditioned policy to control a system between successive low-dimensional goals. This sequential goal-reaching approach raises a problem of compatibility between successive goals: we need to ensure that the state resulting from reaching a goal is compatible with the achievement of the following goals. To tackle this problem, we present a new algorithm called DCIL-II. We show that DCIL-II can solve with unprecedented sample efficiency some challenging simulated tasks such as humanoid locomotion and stand-up as well as fast running with a simulated Cassie robot. Our method leveraging sequentiality is a step towards the resolution of complex robotic tasks under minimal specification effort, a key feature for the next generation of autonomous robots.
translated by 谷歌翻译
解释中的歧义可以很容易地阻碍使用自然语言执行新任务的代理人。当老师通过参考对象的特征向学习者提供有关对象的指导时,学习者可以误解老师的意图,例如,如果指令模棱两可地指对象的特征,则是一种称为参考歧义的现象。我们研究了从认知科学中得出的两个概念如何帮助解决这些参考歧义:教育学(选择正确的说明)和实用主义(使用归纳推理学习其他代理的偏好)。我们将这些想法应用于教师/学习者的设置,并在模拟机器人任务(堆栈)中使用两个人工代理。我们表明,这些概念提高了培训学习者的样本效率。
translated by 谷歌翻译
游泳者环境是加固学习(RL)的标准基准。特别是,它通常用于比较或组合RL方法与直接策略搜索方法(例如遗传算法或进化策略)的论文中。这些论文中有很多报道了RL方法的游泳者表现不佳,并且直接策略搜索方法的性能更好。在这份技术报告中,我们表明,游泳运动员的RL方法的性能低来自重要的高参数的调整不足,并且通过将此超参数设置为正确的价值,可以很容易地解决该问题。
translated by 谷歌翻译
众所周知,在漫长的地平线和稀疏的奖励任务中,加强学习(RL)是困难的,需要大量的培训步骤。加快该过程的标准解决方案是利用额外的奖励信号,将其塑造以更好地指导学习过程。在语言条件的RL的背景下,语言输入的抽象和概括属性为更有效地塑造奖励的方式提供了机会。在本文中,我们利用这一想法并提出了一种自动奖励塑形方法,代理商从一般语言目标中提取辅助目标。这些辅助目标使用问题生成(QG)和问题答案(QA)系统:它们包括导致代理商尝试使用其自己的轨迹重建有关全球目标的部分信息的问题。当它成功时,它会获得与对答案的信心成正比的内在奖励。这激励代理生成轨迹,这些轨迹明确解释了一般语言目标的各个方面。我们的实验研究表明,这种方法不需要工程师干预来设计辅助目标,可以通过有效指导探索来提高样品效率。
translated by 谷歌翻译
多进球的增强学习最近吸引了大量的研究兴趣。通过允许在相关培训任务之间共享经验,只要在被考虑的目标空间中存在某些平滑度时,这种设置有利于测试时间的新任务的概括。但是,在州或目标空间不连续的环境(例如迷宫中的墙壁)中,由于缺乏专家知识的稀疏性,大多数目标都难以实现。这意味着必须发现一些艰苦的探索,必须发现一些目标课程,以通过使培训任务适应其当前功能来帮助代理商学习。我们以最新的自动课程学习技术为目标政策,我们提出了一种新颖的方法:Stein变化目标生成(SVGG),该方法通过利用一种学识渊博的模型来寻求在代理的近端开发区域中的新目标,以寻求新的目标它的能力和目标分布在勘探空间中以颗粒为模型。我们的方法依靠Stein变分梯度下降来动态吸引适当难度领域的目标采样分布。与最近最新的RL方法相比,我们证明了该方法的性能,即目标领域的成功覆盖范围。
translated by 谷歌翻译
从演示方法中学习通常利用接近最佳示范的方法来加速培训。相比之下,在展示任务时,人类教师会偏离​​最佳示威活动,并通过提供最佳歧视他们想要展示的目标的演示来改变其行为。类似地,人类的学习者在务实地推断老师的意图方面表现出色,从而促进了两个代理商之间的沟通。在少数示威制度中,这些机制至关重要,在少数示威制度中,推断目标更加困难。在本文中,我们通过利用示威活动的贝叶斯推断贝叶斯模型来实施教学法和实用主义机制。我们在多进球教师学习者的设置中强调了该模型的好处,并使用两个人工代理人通过目标条件的强化学习来学习。我们表明,将教学老师和务实的学习者结合起来会导致学习速度更快,并减少了从演示中进行标准学习的目标歧义,尤其是在少数示威制度中。
translated by 谷歌翻译
尽管人类生活在一个开放式的世界中,并且无休止地面临着新的挑战,但每次面对下一个挑战,他们都不必从头开始学习。相反,他们可以使用一些以前学习的技能,这些技能迅速适应了新情况。在人工智能中,具有内在动机代表和设定自己的目标的自动代理人具有有希望的技能适应能力。但是,这些功能受其政策和目标空间表示的高度限制。在本文中,我们建议研究这些表示对自动剂的学习和转移能力的影响。我们使用四种类型的图形神经网络策略表示和两种类型的目标空间(几何或基于谓词)研究自动剂的不同实现。通过对看不见的目标测试代理,我们表明,将足够表达的对象体系结构与语义关系目标相结合有助于学习实现更加困难的目标。我们还发布了基于图形的实现,以鼓励朝这个方向进行进一步的研究。
translated by 谷歌翻译
在过去的几年中,深层神经进化和深厚的增强学习受到了很多关注。一些作品比较了它们,突出了他们的利弊,但是新兴趋势在于结合起来,从而从两全其美的世界中受益。在本文中,我们通过将文献组织成相关的作品组,并将每个组中的所有现有组合都组织成一个通用框架,从而对这种新兴趋势进行了调查。我们系统地涵盖了所有易于使用的论文,无论其出版状态如何,重点是组合机制,而不是实验结果。总的来说,我们总共涵盖了45种算法比2017年更新。我们希望这项工作将通过促进对方法之间的关系的理解,从而有利于该领域的增长,从而导致更深入的分析,概述缺失有用的比较并提出新机制的新组合。
translated by 谷歌翻译
建立可以探索开放式环境的自主机器,发现可能的互动,自主构建技能的曲目是人工智能的一般目标。发展方法争辩说,这只能通过可以生成,选择和学习解决自己问题的自主和本质上动机的学习代理人来实现。近年来,我们已经看到了发育方法的融合,特别是发展机器人,具有深度加强学习(RL)方法,形成了发展机器学习的新领域。在这个新域中,我们在这里审查了一组方法,其中深入RL算法训练,以解决自主获取的开放式曲目的发展机器人问题。本质上动机的目标条件RL算法训练代理商学习代表,产生和追求自己的目标。自我生成目标需要学习紧凑的目标编码以及它们的相关目标 - 成就函数,这导致与传统的RL算法相比,这导致了新的挑战,该算法设计用于使用外部奖励信号解决预定义的目标集。本文提出了在深度RL和发育方法的交叉口中进行了这些方法的类型,调查了最近的方法并讨论了未来的途径。
translated by 谷歌翻译
大自然的一个迷人方面在于它能够产生大型和多样化的生物体,这些生物都在他们的利基中都很高兴。相比之下,大多数AI算法专注于向给定问题找到一个有效的解决方案。除了表现外,旨在实现多样性是处理勘探开发权衡的便捷方式,在学习中发挥着核心作用。当返回的集合包含对所考虑的问题的几个工作解决方案时,它还允许增加鲁棒性,使其适用于机器人等真实应用。质量 - 多样性(QD)方法是为此目的设计的进化算法。本文提出了一种新颖的QD - PG,它结合了政策梯度算法的强度和质量多样性方法,在连续控制环境中产生了各种和高性能的神经政策的集合。这项工作的主要贡献是引入多样性政策梯度(DPG),该梯度(DPG)利用时刻级别的信息以采样有效的方式培养更多样化的策略。具体而言,QD-PG从地图 - E LITES网格中选择神经控制器,并使用两个基于梯度的突变运算符来提高质量和多样性,从而产生稳定的人口更新。我们的结果表明,QD - PG产生了各种解决方案的集合,解决了具有挑战性的勘探和控制问题,同时是比其进化竞争对手更高的样本效率的两个数量级。
translated by 谷歌翻译